iT邦幫忙

2023 iThome 鐵人賽

DAY 16
0
AI & Data

利用SeamlessM4T學習語音辨識架構及應用系列 第 16

DAY16 - SeamlessM4T中的Text Decoder

  • 分享至 

  • xImage
  •  

MetaAI使用基於文字的 mBART (t-mBART) 預訓練模型作為UnitY模型的第一階段解碼器,且充分利用未標記的文字數據。

什麼是mBART?

過去的機器翻譯模型都是訓練完一種語言,就只能做該語言的翻譯。當要翻譯另外一種語言,就要重新訓練。而mBART模型就可以克服此障礙(YinhanLiu等人, 文獻),mBART是基於BART的預訓練序列對序列的去噪自動編碼器,能夠應用在多種語言(Multilingual)的大規模單語語料庫上。

那什麼是BART?

BART全名為Bidirectional and Auto-Regressive Transformers,意思是顧及上下文且能自動回歸的Transformer。

相似模型GPT、BERT、BART比較

在這邊想要比較一下相似機器翻譯模型的差異:

  • GPT(Generative Pre-trained Transformer)是OpenAI 提出的預訓練語言模型,採用 Transformer作解碼器,通常模型需要大量訓練語料庫、模型參數及計算資源才能夠訓練,而GPT是透過大規模語料庫做非監督式預訓練,而後微調優化。採用自然序列中的從左到右(或者從右到左)的因式分解。
  • BERT(Bidirectional Encoder Representations from Transformers)由Google提出的預訓練模型,採用Transformer作編碼器,其中的Bidirectional使其更能針對上下文關聯作翻譯。
  • BART融合BERT的雙向編碼器和GPT的從左到右解碼器,成為一個seq2seq Transformer model,讓它比BERT更適合文本產生,與比GPT多了上下文語意特徵。

總結

SeamlessM4T使用了基於文本的mBART模型作為它第一階段的文本解碼器,而mBART為適合處理多語言(Multilingual)的BART的模型。而GPT、BERT及BART都是基於Transformer發展出來的模型,BART是融合GPT及BERT各自的優點,更能產生符合上下語意的文本。


上一篇
DAY15 - SeamlessM4T中的Conformer
下一篇
DAY17 - SeamlessM4T中的T2U Encoder 及 Unit Decoder
系列文
利用SeamlessM4T學習語音辨識架構及應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言